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摘要 : [目的 /意义 ] 针对 招聘 网 页 文本 存在 许多 英文 技能 词语 拼写 错误 的 问题 ， 提 出 一 种 招聘 网 页 技 
能 词语 规范 化 方法 。[ 方 法 / 过程] 结合 字面 相似 性 和 上 下 文 相似 性 ， 度 量 技 能 词语 的 相似 度 ， 形 成 相似 
技能 词语 网 络 ， 从 而 对 招聘 网 页 文本 中 的 技能 词语 进行 规范 化 。[ 结果 / 结论 ] 从 国内 主流 招聘 网 站 前 程 
无 忧 获取 一 周 计算 机 类 岗位 求职 信息 ， 使 用 提出 的 方法 进行 招聘 网 页 英文 技能 词语 规范 化 。 实 验 结果 表明 ， 
提出 的 方法 能 够 自动 、 准 确 、 快 速 地 规范 招聘 网 页 文本 中 的 技能 词语 。 
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引用 格式 : 孙 瑜 , 姜 金 德 . 一 种 结合 字面 与 上 下 文 相似 性 的 招聘 网 页 技能 词语 规范 化 方法 [J/OL]. 知识 
管理 论坛 ,2018, 3(6): 325-334[ 引用 日 期 ]. http://www.kmf.ac.cn/p/151/. 


近 几 年 来 ， 随 着 我 国 高 等 教育 的 迅猛 发 展 
和 招生 规模 的 日 益 扩大 ， 大 学 生 找 工作 难 、 企 
业 招 人 难 已 经 成 为 社会 关注 的 热点 。 在 某 种 程 
度 上 ,我 国 高 校 人 才 培 养 与 社会 需求 间 的 不 匹 
配 ， 造 成 了 这 种 双重 困境 。 特 别 是 在 信息 时 代 
中 ,企业 对 人 才 的 需求 变化 迅速 ,与 之 相 矛 盾 
的 是 高 校 人 才 培 养 周期 长 , 专业 课程 设置 洲 后 ， 
导致 学 生 的 培养 脱离 实际 需要 。 因 此 ， 在 高 速 
发 展 的 信息 时 代 中 ,人 快速、 准确 地 洞察 企业 对 
所 招 岗位 技能 需求 显得 格外 重要 。 随 着 互联 网 
的 普及 ， 网 络 招 聘 成 为 企业 招聘 的 主流 方式 。 
招聘 网 页 中 常 含 有 企业 对 所 招 岗 位 技能 需求 的 
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具体 描述 ， 反 映 了 当前 就 业 市 场 对 人 才 的 技能 
需求 。 因 此 ， 通 过 分 析 招 聘 网 页 信息 ， 了 解 整 
个 社会 对 某 领 域 人 才 技 能 需求 是 一 种 有 效 的 实 
现 途径 。 由 于 招聘 网 页 为 非 结构 化 的 文本 ， 需 
要 进行 一 系列 的 自然 语言 处 理 操作 ， 从 而 获取 
相关 的 结构 化 的 技能 信息 。 然 而 ， 不 同 于 传统 
的 经 过 严格 编辑 和 修订 的 文本 ， 网 络 招聘 文本 
书写 通常 不 规范 ， 特 别 在 一 些 领域 中 ， 技 能 通 
各 为 一 些 黄 文 词语 ， 存 在 许多 错误 拼写 ， 如 将 
“Oracle” 错 拼 为 “Orace”、 将 “Linux” 错 拼 
为 “Liunx” 等 。 招 聘 网 页 文本 技能 书写 的 不 规 
范 对 基于 传统 规范 文本 的 自然 语言 处 理 方法 产 


作者 简介 : Ih (ORCID: 0000-0001-8275-8824)， 学 生 ，E-mail: weifanglai@sina.com; -3-£4& (ORCID: 0000- 


0002-5504-7493)， 教 授 ， 博 士 。 
收 稿 日 期 : 2018-09-17 发 表 日 期 : 2018-12-07 


本 文责 任 编辑 : 刘 远 颖 


202310.03066v1 


chinaXiv 


知识 管理 论坛 


2018 年 第 6 期 (总 第 18 期 ) 


HAC 


www.kmf.ac.cn 


生 了 干扰 。 因 此 ， 在 对 招聘 网 页 文本 进行 技能 
需求 分 析 之 前 ， 将 招聘 网 页 文本 中 拼写 不 规范 
的 英文 技能 词语 转换 为 规范 形式 显得 尤为 重要 。 
近年 来 ,已 经 有 一 些 研 究 尝试 利用 网 络 招 
聘 信息 分 析 企 业 招聘 岗位 对 技能 的 需求 '“。 但 
是 ， 这 些 研 究 通常 采用 手工 方式 进行 技能 词语 
规范 ， 这 不 能 适应 招聘 网 页 更 新 快速 、 数 据 量 
大 的 特点 。 目 前 ， 对 招聘 网 页 中 技能 词语 进行 
自动 规范 的 研究 还 较 少 。 文 献 [7] 针对 招聘 文本 ， 
提出 用 词 向 量 聚 类 的 方法 进行 技能 词语 规范 化 
处 理 ， 然 而 ， 该 方法 没有 考虑 拼写 错误 的 技能 
词语 通常 具有 相似 的 字面 形式 ， 并 且 词 向 量 模 
型 不 能 很 好 地 为 低频 词语 产生 准确 的 词 向 量 ， 
从 而 影响 技能 词语 规范 化 的 效果 。 
通过 仔细 观察 招聘 网 页 文本 中 的 技能 词语 ， 
可 以 发 现 错 拼 的 词语 通常 具有 相似 的 字面 形式 ， 
并 且 具 有 相似 的 上 下 文 技能 词语 术语 ， 因 此 ， 
笔者 提出 结合 字面 和 上 下 文 相 似 性 的 方法 度量 
技能 词语 的 相似 度 ， 形 成 相似 技能 词语 网 络 ， 
从 而 对 招聘 网 页 文本 中 的 技能 词语 进行 规范 化 。 
实验 表明 ， 笔 者 提出 的 方法 能 够 自动 、 准 确 、 
快速 地 规范 招聘 网 页 文本 中 的 技能 词语 。 
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词语 规范 化 (lexical normalization ) 是 将 多 
个 词语 归纳 成 一 个 等 价 类 ， 是 众多 自然 语言 预 
处 理 的 一 个 重要 步骤 。 例 如 机 器 翻译 、 命 名 实 
体 抽取 、 信 息 检 索 等 研究 ， 它 们 处 理 的 数据 都 
是 经 过 规范 化 后 的 “干净 ” 语 料 ， 从 而 降低 模 
型 的 复杂 度 。 词 语 规范 化 是 语 料 预 处 理 的 一 个 
关键 步骤 ， 一 直 以 来 都 备 受 研究 者 关注 ， 尤 其 
是 随 着 近年 来 社交 媒体 上 的 文本 呈 爆 炸 式 增长 ， 
社交 媒体 文本 词语 规范 化 成 为 研究 的 热点 。 

早期 文本 规范 化 工作 大 多 使 用 噪声 信道 模 
型 。 文 献 [8] 首先 将 噪声 信道 模型 应 用 于 文本 规 
范 化 任务 ， 提 出 一 种 基于 字符 串 编 辑 的 噪声 信 
道 模型 ， 该 模型 对 子 串 转换 的 概率 建 模 ， 可 提 
高 文本 规范 化 的 效果 ; 文献 [9] 通过 扩展 噪声 信 
道 模型 中 错误 模型 ( 将 词 之 间 的 语音 相似 性 加 
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入 错误 模型 ) ， 通 过 学 习 规 则 来 预测 每 一 个 字 
符 的 发 音 ， 并 且 预 测 依赖 于 词 中 的 相 邻 其 他 字 
符 。 但 这 种 模型 为 有 监督 模型 ， 需要 大 量 标注 
语 料 对 模型 进行 训练 。 

以 噪声 信道 模型 为 基础 ， 目 前 的 词语 规范 
化 方法 可 分 为 拼写 修正 法 、 序 列 标注 法 和 机 器 
翻译 法 三 大 类 。 拼 写 修正 法 假设 单词 变 成 非 标 
准 词 的 过 程 是 相互 独立 的 ， 则 文本 规范 化 问题 
可 以 简化 为 单词 拼写 修正 问题 。 序 列 标注 法 将 
词语 规范 化 任务 看 作 一 个 序列 标注 问题 进行 求 
解 。 首 先 针对 文本 中 的 每 个 单词 生成 候选 的 知 
干 个 规范 化 单词 ， 然 后 采用 维特 比 算法 基于 语 
言 模型 进行 求解 ， 得 到 联合 概率 最 大 的 单词 序 
列 作为 规范 化 结果 。 通 党 所 采用 的 序列 模型 有 
ES c ZR BUS. UO 和 条 件 随 机 场 C HAR 
译 法 借助 词 对 齐 概念 ， 对 非 标准 词 一 标准 词 
关系 中 的 一 对 多 、 多 对 一 和 多 对 多 映射 进行 
KEEDUMTUL 其中， 序列 标注 和 机 器 翻译 方法 
是 有 监督 的 方法 ， 需 要 大 量 标注 数据 训练 模 
型 ， 训 练 数据 需要 耗费 大 量 人 力 进 行 手 工 标 
注 。 因 此 ， 利 用 非 监 督 的 拼写 修正 方法 规范 
词语 成 为 研究 的 热点 。 

拼写 修正 方法 主要 包括 基于 词 形 相 似 性 和 
基于 上 下 文 相似 性 两 类 。 基 于 词 形 相似 性 的 方 
法 中 最 具有 代表 性 的 是 通过 计算 单词 的 编辑 距 
离 来 表示 单词 相似 性 ， 而 在 社交 文本 中 ， 非 标 
准 词 形 很 可 能 和 标准 形式 大 相 径 庭 ， 文 献 [14] 
提出 针对 社交 文本 的 词语 相似 性 模型 ， 使 用 近 
音 拼写 、 单 词 裁剪 等 变化 形式 度量 单词 相似 性 。 
词语 的 上 下 文 相 似 性 则 指 不 同 单词 出 现在 相似 
上 下 文中 的 概率 。 目 前 ,通常 使 用 神经 网 络 训 
练 出 来 的 词 向 量 "“ 。 特 别 地 ， 文 献 [7] 提出 
利用 word2vec 词 向 量 表示 技能 词语 以 及 上 下 文 ， 
以 进行 招聘 文本 技能 词语 规范 化 。 

目前 的 拼写 修正 方法 大 多 针对 社交 网 络 文 
本 ， 相 较 于 社交 网 络 词 语 的 多 种 形式 ， 招 聘 网 
页 文本 技能 词语 通常 具有 字面 相似 性 ; 而 上 下 
文中 使 用 词 向 量 方法 并 不 适用 ， 因 为 词 向 量 更 
适合 准确 地 表示 高 频 词语 ， 低 频 词语 的 词 向 量 
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并 不 准确 , 从 而 影响 了 上 下 文 词语 相似 性 计算 。 

笔者 提出 的 方法 是 针对 招聘 网 页 文本 的 无 监督 
的 拼写 修正 方法 ， 不 需要 使 用 标注 数据 ， 适 应 
招聘 网 页 更 新 快速 、 数 据 量 大 的 特点 。 


O 结合 字面 和 上 下 文 相 似 性 的 技能 词 
语 规范 化 方法 

招聘 网 页 中 错 拼 的 词语 通常 具有 相似 的 字 
面 形式 , 如 将 “Oracle” 错 拼 为 “Orace” 等 。 但是， 
如 果 仅 仅 使 用 字面 相似 性 也 可 能 造成 一 些 非 错 
拼 的 词语 被 误 认 为 是 错 拼 词语 ， 如 “Radware” 
与 “Hardware” 虽 具有 相似 的 字面 形式 ， 但 是 
为 两 个 不 同 的 词语 ，“Radware” 为 一 家 领先 的 
智能 化 解决 方案 供应 商 ， 致 力 于 确保 快速 、 可 
靠 、 安 全 地 交付 网 络 或 基于 网 络 的 应 用 程序 ， 
而 “Hardware” 表 示 计 算 机 系统 的 组 成 硬件 。 
通过 观察 ， 可 以 发 现 错 拼 的 词语 通常 具有 相似 
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的 上 下 文 词语 ， 而 非 错 拼 的 相似 字面 形式 词语 
通常 具有 不 同 的 上 下 文 技能 词语 ,例如 ,“Oracle” 
与 “Orace” 通 常 都 与 “数据 库 ”“SQL” 等 词 
一 起 出 现 ; 而 词 “Radware” 通 常 和 “WebLog- 
ic" "Bea" "Server" 等 词 同 时 出 现 , "Hardware" 
则 和 “显示 器 ”“ 主 板 ”“CPU”“ 内 存 ” 等 
词 一 起 出 现 。 

因此 ， 针 对 中 文 招聘 网 页 文本 中 存在 许多 
英文 技能 拼写 错误 的 问题 ， 笔 者 提出 一 种 结合 
字面 和 上 下 文 相似 性 的 技能 词语 规范 化 方法 ， 
方法 总 流程 如 图 1 所 示 。 方法 主要 分 为 预 处 理 、 
计算 技能 词语 对 相似 性 和 生成 技能 词语 相似 网 
络 等 3 个 步骤 。 首 先 对 获取 的 招聘 网 页 文本 进 
行 相关 预 处 理工 作 ， 然 后 计算 技能 词语 对 的 字 
面相 似 性 和 上 下 文 相似 性 ， 形 成 技能 词语 相似 
性 度量 ， 根 据 词 语 相似 性 度量 形成 相似 技能 词 
语 网 络 ， 以 进行 技能 词语 规范 化 。 


预 处 理 — 


计算 技能 词语 对 相似 性 


字面 相似 性 


生成 技能 词 


上 下 文 相似 性 


语 相 似 网 络 


2.1 预 处 理 

由 于 招聘 网 页 文本 是 非 结构 化 的 网 页 结构 ， 
而 且 除 了 包含 技能 等 所 需 信 息 之 外 ， 还 包括 其 
他 大 量 噪 音信 息 ， 如 广告 、 图 片 动画 、 与 主题 
无 关 的 超级 链接 、 脚 本 语言 以 及 各 类 标签 。 因 
此 ， 需 要 针对 招聘 网 页 文本 结构 ， 借 助 网 页 文 
本 分 析 工具 解析 包 解 析 网 络 文本 ， 提 取出 招聘 
网 页 中 与 招聘 分 析 信 息 有 关 的 文本 结构 。 然 后 ， 
对 获取 的 相关 文本 内 容 进 行 去 重 、 词 性 标注 、 
英文 大 小 写 转化 等 操作 。 由 于 本 文 则 在 对 招聘 
网 页 文本 中 的 英文 技能 词语 进行 规范 化 , 因此 ， 


图 1 结合 字面 和 上 下 文 相 似 性 的 技能 词语 规范 化 方法 总 流程 


预 处 理 阶段 将 过 滤 掉 中 文 词语 ， 仅 保留 英文 技 
能 词语 。 图 2 为 对 一 个 招聘 网 页 文本 进行 预 处 
理 示例 ,保留 了 任职 要 求 中 的 所 有 英文 词语 ， 
一 个 岗位 招聘 网 页 文本 形成 一 个 对 应 的 岗位 技 
能 词语 文本 。 
2.2 计算 技能 词语 对 相似 性 

为 了 规范 技能 词语 ， 需 要 计算 技能 词语 之 
间 的 相似 度 ， 以 判断 两 个 词语 为 同一 技能 的 可 
能 性 。 笔 者 从 技能 词语 字面 和 上 下 文 两 方面 衡 
量 技 能 词语 的 相似 性 ， 当 两 个 词语 字面 越 相似 ， 
上 下 文 越 相似 ， 则 越 可 能 是 同一 技能 词语 。 
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独立 解决 问题 的 能 力 、 良 好 的 沟通 表达 能 力 ， 有 责任 心 ， 具 有 良 


j2ee oracle 


sgljavascriptjquery 


csslinus 


bootstrap 


tomcat spark hadoop 


思路 清晰 ， 有 


好 的 团队 合作 意识 。</p><p> 五 险 一 金 : 享受 齐全 的 社会 保险 , 包 


括 养 老 、 医 疗 、 失 业 、 工 伤 、 生 育 、 以 及 住房 公积金 。 


m 


2.2.1 字面 相似 性 


2 招聘 网 页 文本 预 处 理 示例 


基于 归 一 化 编辑 距离 ， 词 语 w 与 词语 w 之 


最 具有 代表 性 的 基于 字面 相似 性 的 方法 是 
通过 计算 词语 的 编辑 距离 (Edit Distance, ED)?! 
来 表示 单词 的 相似 性 。 编 辑 距离 指使 一 个 候选 
技能 术语 变 为 另 一 个 候选 技能 术语 而 进行 的 插 
入 、 删 除 、 替 换 等 操作 的 最 少 次 数 。 编 辑 距 离 
不 仅 考 虑 了 两 个 候选 技能 术语 之 间 相 同 字 符 的 
数目 ， 还 考虑 了 它们 之 间 位 置 关 系 ， 通 常 ， 编 
辑 距 离 越 小 , 说 明 两 个 候选 技能 术语 越 相似 。 如， 
“oracle” 与 “orace” 的 编辑 距离 为 1。 由 于 编 
辑 距离 没有 考虑 候选 技能 术语 本 身长 度 ， 因 此 
笔者 将 两 个 候选 技能 术语 的 长 度 融 入 编辑 距离 ， 
形成 归 一 化 编辑 距离 (Normalized Edit Distance, 
NED)， 其 定义 如 下 : 


ED(w,w) 公式 (1) 


[wl+|w, | 
在 公式 (1) 中 ，ED (w, w) 表示 技能 词语 
wi 与 w 之 间 的 编辑 距离 。 由 NED 定义 可 知 ， 
NED 越 小 ， 则 两 个 技能 词语 术语 越 相 似 ， 当 w, 
和 w 完 全 相同 时 ， 其 NED 为 0。 
“orace” 的 NED 值 为 = 0.09。 
645 


NED(w,,w,)= 


“oracle” 与 


328 


间 的 字面 相似 性 strSim 定义 如 下 : 
MEA 
NED(w,,w;) 公式 (的 
由 公式 (2) 可 知 ， 当 两 个 词语 归 一 化 距离 越 
小 ， 则 字面 相似 性 越 大 ， 表 明 两 个 词语 越 可 能 
是 同一 词语 ， 为 了 避免 分 母 为 0， 不 考虑 w 和 
wi 完全 相同 的 情况 。 
2.2.2 上 下 文 相 似 性 
相似 技能 词语 通常 有 相似 的 上 下 文 技能 词 
语 。 因 此 ， 可 以 利用 技能 词语 的 上 下 文 判 断 技 
能 词语 的 相似 度 。 具 体 地 ， 给 定 词语 w, DN 
包含 技能 词语 w 的 所 有 岗位 技能 词语 文本 集 ， 
EI DiDa. Da Da}, WED, 笔者 定义 两 
个 上 下 文 相似 性 conSetSim 和 conFreSim， 其 中 
conSetSim 的 定义 如 下 : 


strSim(w,,w,)— zw. 


15; 8; 
[S; US, | 

在 公式 (3 ) 中 ,5 为 w; 的 上 下 文 技能 词语 集 ， 
5,={w|we D, 和 wzw}; EEE, S 表示 w, 的 
上 下 文 技能 词语 集 。 由 公式 (3 ) 可 知 ， 当 技能 
词语 w 与 技能 词语 w 的 上 下 文 技能 词语 集中 相 


conSetSim(w,,w,) = 公式 (3) 
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同 的 技能 词语 越 多 的 时 候 ， 则 wi 与 w, 越 相似 ， 
越 可 能 是 表示 相同 概念 的 技能 词语 。 
conFreSim 的 定义 如 下 : 


conFreSim(w,,w;) = 


WE i "€, j 公式 (4) 

在 公式 (A) rh, RRE v ELE w, 

的 岗位 上 下 文 词语 文本 集 D, 中 出 现 的 次 数 ; 类 
DIL, n 表示 词语 w 在 词语 w 的 岗位 上 下 文 词 
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语文 本 Dj 中 出 现 的 次 数 。 由 公式 (4) 可知， 
conFreSim 与 conSetSim 的 相同 之 处 都 是 通过 上 
下 文 词语 集 来 度量 词语 相似 度 ， 但 是 conFreSim 
还 考虑 了 上 下 文 技 能 词语 集中 每 个 技能 词语 出 
现 的 次 数 。 

综合 考虑 字面 相似 性 和 上 下 文 相似 性 两 个 
指标 ， 形 成 最 终 的 指标 strSim-conSetSim 和 str- 
Sim-conFreSim 两 个 相似 性 指标 ， 它 们 的 定义 如 
F: 


strSim — conSetSim(w,, w ,) = strSim(w,, w,)x conSetSim(w,,w;) 公式 (5) 


strSim — conFreSim(w,,w;) = strSim(w,,w,)x conFreSim(w,,w;) 公式 (0) 


由 公式 (5) 和 (6) 可 知 ， 当 ww 和 ww; 的 
字面 相似 性 越 大 ， 上 下 文 相似 性 越 大 时 ， 指 标 
strSim-conSetSim 和 strSim-conFreSim H K, Æ 
明 w, 和 ww 越 可 能 是 相同 的 技能 词语 。 

2.3 生成 相似 技能 词语 网 络 

根据 技能 词语 对 的 相似 性 ， 可 以 生成 相似 
技能 词语 网 络 ， 以 找到 所 有 表示 相同 技能 概念 
的 技能 词语 。 相 似 技 能 词语 网 络 中 的 每 个 顶点 
表示 一 个 技能 词语 , 网络 之 间 的 无 回 边 为 相似 性 
大 于 某 个 预先 设 定 的 闽 值 的 技能 词语 对 。 根 据 
生成 的 无 向 网 络 , 寻找 网 络 中 所 有 的 连通 网 络 ， 
即 为 表示 相同 概念 的 技能 词语 集 。 使 用 每 个 集 
合 中 出 现 频 次 最 高 的 技能 词语 术语 表示 该 集合 ， 
以 进行 技能 词语 规范 化 操作 。 图 3 为 相似 技能 
词语 网 络 示例 。 在 图 3 的 相似 技能 词语 网 络 中 ， 
共有 3 个 连通 网 络 ， 形 成 3 个 技能 词语 集合 ， 


即 fwebsphere, webspere, websphare} 、{visio、 


viso, vioso}, {zibbix, zabbix, zabix}o 


websphere visio 


e. Viso vioso 


websphare 
webspere 


图 3 相似 技能 词语 网 络 示例 


实验 


3.1 数据 集 
为 了 验证 笔者 提出 方法 的 可 行 性 与 有 效 


kcu A 
zibbix  zabbix 


性 ， 实 验 抓 取 国 内 主流 招聘 网 站 前 程 无 忧 
(www.51job.com) 招聘 网 页 数据 ， 以 规范 技能 
词语 。 前 程 无 忧 是 一 家 网 络 招聘 服务 提供 商 ， 
是 中 国 最 具 影 响 力 的 人 才 招 聘 网 站 之 一 。 按 照 
职能 的 划分 ， 在 前 程 无 忧 网 站 选取 “计算 机 / 
互联 网 /通信 /电子 ”职能 抓 取 数据 ( 数据 抓 
取 日 期 : 2018-3-19 至 2018-3-26 ) 作为 招聘 网 
页 集 ， 去 除 内 容重 复 、 全 英文 、 没 有 写 明 任职 
要 求 的 招聘 网 页 ， 最 后 共 得 到 14 678 个 相关 
招聘 网 页 。 
32 实验 步骤 与 评估 方法 

实验 首先 对 招聘 网 页 文本 进行 预 处 理 ， 包 
括 使 用 Beautifulsoap 定位 ， 解 析 网 页 内 容 ， 获 
得 岗位 技能 要 求 文本 ， 使 用 结巴 分 词 进行 词性 
标注 、 英 文大 写 转 化 为 小 写 等 工作 ， 最 终 保留 
英文 技能 词语 , 共 得 到 7 156 个 不 同 的 英文 词语 。 
分 别 计算 两 两 不 同 技能 词语 的 字面 相似 性 和 上 
下 文 相似 性 ， 最 终 形成 相似 度 ， 人 工 设 定 阔 值 
为 7， 形 成 相似 技能 词语 网 络 ， 找 出 相似 技能 词 
语 网 络 中 所 有 的 连通 网 络 , 形成 技能 词语 集合 ， 
使 用 各 集合 中 出 现 频次 最 高 的 词语 作为 规范 词 
语 进行 规范 化 。 

实验 对 技能 词语 对 相似 性 进行 人 工 标注 ， 
判断 其 是 否 为 同一 技能 概念 ， 采 用 P@N 方法 评 
价 正确 评 佑 的 技能 词语 对 ， 其 公式 如 下 : 
_# 前 N 对 相似 技能 词汇 对 中 为 同一 技能 概念 

# 前 N 对 相似 技能 词汇 对 


P@N x100% 


公式 (7) 
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33 结果 
3.3.1 技能 词语 相似 性 方法 评估 

实验 首先 评估 第 3.2 节 中 提出 的 技能 词语 相 
似 性 方法 ， 为 此 分 为 4 组 分 别 进行 比较 ,分 组 
如 表 1 所 示 : 


表 1 相似 方法 方法 


ChinaXiv 合 作 期 刊 


第 1 组 使 用 字面 相似 性 和 两 种 上 下 文 相似 
性 分 别 计算 词语 对 的 相似 性 。 其 结果 如 图 4 所 
示 。 由 网 4 可 见 , 在 3 种 相似 性 计算 中 ， 在 前 
600 对 技能 词语 对 中 ，strSim 方法 准确 率 最 高 ， 
但 是 在 600 对 技能 词语 对 之 后 ，strSim 方法 准 
确 率 迅速 下 降 ， 低 于 上 下 文 的 两 类 方法 conSet- 
Sim 和 ConFreSim。 而 上 下 文 相 似 度 的 两 种 方 
法 中 ，conSetSim 好 于 conFreSim。strSim 方法 
利用 字面 计算 词语 对 的 相似 性 ， 能 够 较为 准确 
地 得 到 一 些 拼 写 错误 的 词 对 ， 但 是 也 存在 一 些 
错误 ， 如 ， 技 能 词语 “spring” 和 “swing” 虽 
然 字 面相 似 ， 但 并 非 同一 个 技能 概念 ， 是 两 种 
不 同 的 计算 机 技能 词语 。conSetSim 和 conFreS- 
im 方法 利用 词语 的 上 下 文 判 断 词语 间 的 相似 
性 ， 有 着 较为 稳定 的 准确 率 ， 其 中 conFreSim 
考虑 上 下 文 技能 词语 的 词 频 ， 能 够 更 加 精确 地 
刻画 技能 词语 对 的 相似 性 ， 因 此 准确 率 好 于 
conSetSim 方法 。 


一 StrSim “一 4 一 COnSetSim — —9-—conFreSim 


序号 比较 方法 计算 方法 
strSim 公式 (2) 
第 1 组 conSetSim 公式 OG) 
conFreSim 公式 (4) 
strSim 公式 (2) 
第 2 组 conSetSim 公式 (3 ) 
strSim-conSetSim 公式 (5) 
strSim 公式 O2) 
第 3 组 conFreSim 公式 (4) 
strSim-conFreSim 公式 (6) 
strSim 公式 (2) 
第 4 组 strSim-conSetSim 公式 (5) 
strSim-conFreSim 公式 (6 ) 
100 
90 
80 
a 
70 
60 
50 
200 400 600 800 


第 2 组 评估 使 用 上 下 文 相似 度 conSetSim 
和 字面 相似 度 strSim 的 混合 方法 strSim-con- 
SetSim 方法 ,已 评估 strSim-conSetSim 方法 
是 否 能 够 提高 准确 率 (LE S). Bm Sn 
见 ， 结 合 字 面相 似 性 和 上 下 文 相似 性 的 str- 
Sim-conSetSim 方法 明显 提升 了 准确 率 ， 该 方 
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1 000 1 200 1 400 1600 


@N 
图 4 第 1 组 技能 词语 对 相似 性 方法 比较 结果 


法 总 体 也 好 于 单独 使 用 字面 相似 性 strSim 和 
单独 使 用 上 下 文 相似 性 conSetSim 的 方法 。 
这 表明 ， 字 面相 似 性 从 字面 上 计算 词语 对 的 
相似 性 ， 而 上 下 文 相 似 性 从 词语 上 下 文 计 算 
词语 对 的 相似 性 ， 两 者 相互 补充 ， 能够 取得 
更 好 的 结果 。 
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70 


60 


一 StrSim 一 人 一 COnSetSim — —9-strSim-conSetSim 


50 : 1 1 


200 400 600 800 


第 3 组 方法 比较 了 上 下 文 相似 性 conFreSim 
和 字面 相似 性 strSim 结合 的 方法 strSim-conFreS- 
im 对 性 能 的 影响 ( 见 图 6 ) 。 由 图 6 可 见 ， 结果 
与 第 2 组 结果 类 似 ， 结 合 字面 相似 性 和 上 下 文 相 


100 


1000 1 200 1 400 1 600 


@N 
图 5 第 2 组 技能 词语 对 相似 性 方法 比较 结果 


似 性 的 strSim-conFredSim 方法 明显 提升 了 准确 
率 ， 该 方法 总 体 好 于 单独 使 用 字面 相似 性 和 单独 
使 用 上 下 文 相似 度 的 方法 。 这 进一步 证 明 结 合 字 
符 相 似 性 与 上 下 文 相似 性 能 够 取得 更 好 的 结果 。 


90 


80 


70 


60 


一 和 StrSim  ——conFreSim — —9-strSim-conFreSim 


50 


200 400 600 800 


第 4 组 方法 比较 了 两 种 字面 相似 性 和 上 
下 文 相 似 度 结合 方法 ， 即 strSim-conSetSim 和 
strSim-conFreSim 方法 ， 并 使 用 strSim 作为 基 
准 方法 ， 结 果 如 图 7 所 示 。 由 图 7 可见 ， 两 种 
结合 方法 中 ，strSim-conFreSim 方法 略 好 于 str- 
Sim-SetSim， 此 结果 与 第 1 组 方法 中 conFreSim 
方法 好 于 conFreSim 方法 结论 一 致 。 相 较 于 
conSetSim 方法 ，conFreSim 方法 考虑 上 下 文 技 
能 词语 的 频次 ， 能 够 更 加 精确 地 刻画 词语 ， 


1 000 1200 1 400 1 600 


@N 
Elo 第 3 组 技能 词语 相似 性 方法 比较 结果 


此 准确 率 好 于 conSetSim 方法 。 
3.3.2 与 其 他 方法 比较 

接着 ， 实 验 使 用 第 3.3.1 节 中 最 佳 方法 str- 
Sim-conFreSim 与 文献 [7] 中 的 方法 进行 了 比较 ， 
并 使 用 strSim 方法 作为 基准 方法 。 文 献 [7] 使 用 
神经 网 络 词 向 量 方法 ， 利 用 技能 词语 的 上 下 文 
计算 词语 向 量 ， 以 规范 化 招聘 文本 技能 词语 ， 
笔者 将 其 简称 为 word2vecSim 方法 。 实 验 结果 
如 图 8 所 示 。 由 图 8 可见 ， 笔 者 提出 的 方法 好 


331 


202310.03066v1 


chinaXiv 


知识 管理 论坛 


2018 年 第 6 期 (总 第 18 期 ) 


HAC 


www.kmf.ac.cn 


于 word2vecSim 方法 ，strSim 方法 也 优 于 word- 
2vecSim 方法 。 原 因 主 要 有 3 个 : (D word2vec 
使 用 神经 网 络 计算 词 癌 量 , 虽然 考虑 了 上 下 文 ， 
但 是 word2vec 只 有 当 技 能 词语 大 量 出 现时 ， 才 
能 获得 较 好 的 准确 度 ， 而 当 技 能 出 现 较 少 时 ， 


100 
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则 性 能 并 不 好 ; Q word2vec 考虑 的 上 下 文 不 仅 
仅 有 技能 词语 ， 还 有 其 他 非 技 能 词语 ， 这 样 会 
影响 技能 词语 的 利用 ， 从 而 不 能 准确 地 产生 技 
能 词语 向 量 ; © word2vec 没有 考虑 技能 词语 对 
的 字面 相似 性 。 


60 


—Óx—strSim — —— strSim-conSetSim 


—6— strSim-conFreSim 


200 400 600 800 
CN 


1 000 1 200 1400 1600 


图 7 第 4 组 技能 词语 对 相似 性 方法 比较 结 


100 


60 


一 一 6d  ——word2veced =@= diced 


200 400 600 300 
@N 
图 8 与 其 他 相似 性 方法 比较 结果 


3.3.3 实际 案例 分 析 

表 2 列 出 了 3 个 实际 案例 。 表 2 中 的 
第 1 对 词语 对 ， 具 有 和 较 大 的 字面 相似 度 ， 量 
具有 较 大 的 上 下 文 相似 度 ， 从 而 最 后 的 str- 
Sim-confreSim 相似 度 值 较 高 ， 可 以 判断 它 
们 为 同一 技能 概念 。 表 2 中 的 第 2 对 词语 对 ， 
虽然 具有 较 大 的 字面 相似 度 ， 但 实际 为 两 个 
不 同 的 技能 词语 概念 ， 它们 的 上 下 文 相似 度 
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1 000 1 200 1400 1600 


并 不 高 ， 最 终 的 strSim-conFreSim 相似 度 不 
高 ， 因 此 不 是 同一 技能 概念 。 表 2 中 的 第 3 
对 词语 对 为 两 个 相关 的 技能 词语 ， 因 此 具有 
较 高 的 上 下 文 相似 性 ， 但 是 两 者 字面 相似 性 
很 小 , 可 以 判断 不 是 同一 技能 概念 。 这 表明 ， 
通过 结合 字面 相似 性 和 上 下 文 相似 性 能 够 获 
得 比 单独 使 用 其 中 一 种 方法 更 准确 的 技能 词 
语 相 似 性 。 
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表 2 实例 分 析 


序号 词 词 strSim conFreSim strSim-conFreSim 
1 oracle oralce 6.00 3.15 18.90 
2 fireworks framework 6.33 0.59 3.73 
3 mapreduce hadoop 2.14 2.67 5.71 
Wl s5 yas > 
3.4.4 规范 化 实例 Qs 


最 后 ， 实 验 通过 相似 技能 词语 网 络 ， 找 到 
连通 网 络 ， 形 成 若干 技能 词语 集 ， 采 用 集合 中 
最 大 词 频 作为 标准 化 词语 ， 表 3 列 出 部 分 规范 
化 实例 。 由 表 3 结果 可 见 ， 笔 者 提出 的 结合 字 
相似 性 和 上 下 文 相 似 性 的 方法 ， 能 够 很 好 地 规 
范 化 招聘 网 页 中 拼写 错误 的 技能 词语 。 


表 3 词语 规范 化 实例 


序号 技能 词语 集 规范 化 词 序号 技能 词语 集 规范 化 词 


android 
andriod jquery 
anroid jquey 
andorid jqueyr 
andoird jqurey 
1 androin android 4 jgeury jquery 
andiod jugery 
androd jugery 
androrid jdery 
androi jquer 
andoid 
eclipse hibernate 
eclips hibenate 
2 eclise eclipse 5 Droma hibernate 
eclipe hibernat 
elipse hiberate 
hibernet 
mybatis 
mybauts struts 
mybaties 
myibatis sucis 
mybaitis : SH 
3 Pa mybatis 6 struct struts 
mybiatis 
: strut 
mybtis 
bastis SU 
Strust 
mbatis 
mybits 
javascript 
javascrip 
javascrpt oracle 
jscript oralce 
javasript oracel 
javasscript orcale 
javascipt orcle 
4 javacript javascript 8 orcal oracle 
javascripts oraccle 
javascrpit oracl 
javasprict orale 
javascrtip oracal 
javscript orace 
javescript 
javascritp 


网 络 招聘 信息 中 常 含有 企业 对 所 招 岗位 技 
能 需求 的 具体 描述 ， 反 映 了 当前 就 业 市 场 对 人 
才 的 技能 需求 。 因 此 ,通过 分 析 网 络 招聘 信息 ， 
了 解 整个 社会 对 某 领域 人 才 技 能 需求 是 一 种 有 
效 的 实现 途径 。 然 而 ,不 同 于 传统 的 经 过 严格 
编辑 和 修订 的 文本 ， 网 络 招聘 文本 书写 通常 不 
规范 ， 特 别 在 一 些 领域 中 ， 有 关 技 能 的 描述 通 
常 为 一 些 英 文 ， 产 生 许 多 错误 拼写 。 网 络 招聘 
文本 技能 词语 书写 不 规范 的 特点 ， 基 于 传统 规 
范文 本 的 自然 语言 处 理 方法 再 使 用 中 会 受到 干 
扰 。 因 此 ， 在 网 络 招聘 文本 进行 技能 需求 分 析 
之 前 ， 将 网 络 招聘 文本 中 拼写 错误 的 英文 技能 
词语 转换 为 规范 形式 显得 尤为 重要 。 笔 者 提出 
结合 字面 相似 性 和 上 下 文 相 似 性 的 方法 度量 技 
能 词语 的 相似 度 ， 根 据 技 能 词语 的 相似 度 ， 形 
成 相似 技能 词语 网 络 ， 从 而 规范 化 招聘 网 页 文 
本 中 的 技能 词语 。 从 国内 主流 招聘 网 站 前 程 无 
忧 获 取 一 周 计算 机 类 岗位 求职 信息 ， 使 用 提出 
的 方法 进行 招聘 网 页 英文 技能 词语 规范 化 。 实 
验 结果 表明 ,笔者 提出 的 方法 能 够 自动 、 准 确 、 
快速 地 规范 化 网 络 招聘 文本 中 的 技能 词语 。 从 
而 进行 招聘 岗位 技能 需求 分 析 和 知识 发 现 ， 化 
解 就 业 知识 供需 不 对 称 问题 ， 帮 助 高 等 院 校 和 
大 学 生 合理 有 效 地 利用 网 上 就 业 信 息 资 源 ， 帮 
助 高 校 专业 管理 者 快速 洞察 企业 对 专业 人 才 的 
技能 需求 ， 为 其 制定 符合 企业 需求 的 专业 人 才 
培养 方案 提供 情报 决策 支持 。 
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A Skill Vocabulary Normalization Method for Recruitment Webpage Combing Literal 
and Context Similarity 


Sun Yu' Jiang Jinde? 
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Abstract: [Purpose/significance] This paper proposes a skill vocabulary normalization method for recruit- 
ment webpages, it aims to solve the problem that many English skill word spelling errors exist in the recruit- 
ment webpages. [Method/process] The method combines literal similarity and context similarity to measure 
the similarity of skill word and form a similar skill word network to normalize the skill words in the recruit- 
ment webpages. [Result/conclusion| One week's computer recruitment information was obtained from do- 
mestic mainstream recruitment website 51job to evaluate the proposed method. The experiment results show 
that the proposed method can automatically, accurately and quickly normalize the skill vocabulary in the re- 
cruitment webpages. 
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